Skip to content

01 正则表达式 - 用符号定义规范

正则表达式是什么

  • 一种对字符串进行操作,用于文本模式匹配的逻辑公式

  • 常用场景:

    功能应用场景
    文本匹配和搜索如搜索电子邮件地址、电话号码、日期等
    数据验证如验证密码强度、用户名规则等
    数据清洗和处理如删除无用字符、提取关键信息等
    日志分析和处理如告警收敛、统计访问量等
  • 正则表达式 (Regular Expression) 是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"),可以用来描述和匹配字符串的特定模式。

  • 正则表达式是一种用于模式匹配和搜索文本的工具。

  • 正则表达式提供了一种灵活且强大的方式来查找、替换、验证和提取文本数据。

  • 正则表达式可以应用于各种编程语言和文本处理工具中,如 JavaScript、Python、Java、Perl 等。

常用元字符

代码说明
.匹配除换行符以外的任意字符
\w匹配字母或数字或下划线
\s匹配任意的空白符
\d匹配数字
\b匹配单词的开始或结束
^匹配字符串的开始
$匹配字符串的结束

常用限定符

代码/语法说明
*重复零次或更多次
+重复一次或更多次
?重复零次或一次
{n}重复 n 次
{n,}重复 n 次或更多次
{n,m}重复 n 到 m 次

常用反义词

代码/语法说明
\W匹配任意不是字母,数字,下划线,汉字的字符
\S匹配任意不是空白符的字符
\D匹配任意非数字的字符
\B匹配不是单词开头或结束的位置
[^x]匹配除了 x 以外的任意字符
[^aeiou]匹配除了 aeiou 这几个字母以外的任意字符

常用语法

  • . - 除换行符以外的所有字符。
  • ^ - 字符串开头。
  • $ - 字符串结尾。
  • \d,\w,\s - 匹配数字、字符、空格。
  • \D,\W,\S - 匹配非数字、非字符、非空格。
  • [abc] - 匹配 a、b 或 c 中的一个字母。
  • [a-z] - 匹配 a 到 z 中的一个字母。
  • [^abc] - 匹配除了 a、b 或 c 中的其他字母。
  • aa|bb - 匹配 aa 或 bb。
  • ? - 0 次或 1 次匹配。
  • * - 匹配 0 次或多次。
  • + - 匹配 1 次或多次。
  • {n} - 匹配 n 次。
  • {n,} - 匹配 n 次以上。
  • {m,n} - 最少 m 次,最多 n 次匹配。
  • (expr) - 捕获 expr 子模式,以 \1 使用它。
  • (?:expr) - 忽略捕获的子模式。
  • (?=expr) - 正向预查模式 expr
  • (?!expr) - 负向预查模式 expr

常见的正则表达式

校验数字的表达式

  • 数字:^[0-9]*$
  • n 位的数字:^\d{n}$
  • 至少 n 位的数字:^\d{n,}$
  • m-n 位的数字:^\d{m,n}$
  • 零和非零开头的数字:^(0|[1-9][0-9]*)$
  • 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(\.[0-9]{1,2})?$
  • 带 1-2 位小数的正数或负数:^(\-)?\d+(\.\d{1,2})$
  • 正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$
  • 有两位小数的正实数:^[0-9]+(\.[0-9]{2})?$
  • 有 1~3 位小数的正实数:^[0-9]+(\.[0-9]{1,3})?$
  • 非零的正整数:^[1-9]\d*$^([1-9][0-9]*){1,3}$^\+?[1-9][0-9]*$
  • 非零的负整数:^\-[1-9][]0-9"*$^-[1-9]\d*$
  • 非负整数:^\d+$^[1-9]\d*|0$
  • 非正整数:^-[1-9]\d*|0$^((-\d+)|(0+))$
  • 非负浮点数:^\d+(\.\d+)?$^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
  • 非正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
  • 正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
  • 负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
  • 浮点数:^(-?\d+)(\.\d+)?$^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

校验字符的表达式

  • 汉字:^[\u4e00-\u9fa5]{0,}$
  • 英文和数字:^[A-Za-z0-9]+$^[A-Za-z0-9]{4,40}$
  • 长度为 3-20 的所有字符:^.{3,20}$
  • 由 26 个英文字母组成的字符串:^[A-Za-z]+$
  • 由 26 个大写英文字母组成的字符串:^[A-Z]+$
  • 由 26 个小写英文字母组成的字符串:^[a-z]+$
  • 由数字和 26 个英文字母组成的字符串:^[A-Za-z0-9]+$
  • 由数字、26 个英文字母或者下划线组成的字符串:^\w+$^\w{3,20}$
  • 中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$
  • 中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
  • 可以输入含有 ^%&',;=?$\" 等字符:**[^%&',;=?$\x22]+**
  • 禁止输入含有 ~ 的字符:[^~]+

特殊需求表达式

  • Email 地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
  • 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?
  • InternetURL:[a-zA-z]+://[^\s]*^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
  • 手机号码:^(13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$
  • 电话号码 ("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
  • 国内电话号码 (0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
  • 电话号码正则表达式(支持手机号码,3-4 位区号,7-8 位直播号码,1-4 位分机号): ((\d{11})|^((\d{7,8})|(\d{4}|\d{3})-(\d{7,8})|(\d{4}|\d{3})-(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1})|(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1})))$
  • 身份证号 (15 位、18 位数字),最后一位是校验位,可能为数字或字符 X:(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)
  • 帐号是否合法 (字母开头,允许 5-16 字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
  • 密码 (以字母开头,长度在 6~18 之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
  • 强密码 (必须包含大小写字母和数字的组合,不能使用特殊字符,长度在 8-10 之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z])[a-zA-Z0-9]{8,10}$
  • 强密码 (必须包含大小写字母和数字的组合,可以使用特殊字符,长度在 8-10 之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
  • 日期格式:^\d{4}-\d{1,2}-\d{1,2}
  • 一年的 12 个月 (01~09 和 1~12):^(0?[1-9]|1[0-2])$
  • 一个月的 31 天 (01~09 和 1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
  • 钱的输入格式:
    • 有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$
    • 这表示任意一个不以 0 开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$
    • 一个 0 或者一个不以 0 开头的数字。我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$
    • 这表示一个 0 或者一个可能为负的开头不为 0 的数字。让用户以 0 开头好了。把负号的也去掉,因为钱总不能是负的吧。下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$
    • 必须说明的是,小数点后面至少应该有 1 位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$
    • 这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$
    • 这样就允许用户只写一位小数。下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
    • 1 到 3 个数字,后面跟着任意个 逗号 +3 个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
  • XML 文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
  • 中文字符的正则表达式:[\u4e00-\u9fa5]
  • 双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度 (一个双字节字符长度计 2,ASCII 字符计 1))
  • 空白行的正则表达式:\n\s*\r (可以用来删除空白行)
  • HTML 标记的正则表达式:<(\S*?)[^>]*>.*?|<.*? />
  • 腾讯 QQ 号:[1-9][0-9]{4,} (腾讯 QQ 号从 10000 开始)
  • 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为 6 位数字)
  • IPv4 地址:((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}

正则表达式基础

正则表达式描述
ab同时匹配 a 和 b 字符
**`ab`**
a*b匹配任意个(0~无穷个)a 字符和一个 b 字符
a?b匹配 0 或 1 个 a 字符和 1 个 b 字符
a+b匹配 1 个以上 a 字符和 1 个 b 字符
^a匹配以 a 字符开头的字符串
b$匹配以 b 字符结尾的字符串
.匹配任意字符串
[abc]等价于 `a
[a-z]等价于 `a
[^a-z]匹配除 a 到 z 之外的所有字符
a{2,6}匹配 a 字符出现 2 到 6 次
^today[0-9]+error$以 today 开头,中间有 1 个以上数字,以 error 结尾

正则表达式举例

正则表达式 ^today[0-9]+error$

输入数据匹配情况
today12345error匹配
todayerror不匹配
nottoday123error不匹配
today123caerror不匹配

正则表达式的价值

文本处理三剑客

名称描述
grep内容过滤器,用于在文本文件中搜索特定的文本模式
awk文本分析器,用于在文本文件中进行数据处理和分析
sed行文本处理器,用于在文本文件中进行文本的搜索、替换和编辑

+正则表达式 => 如有 Buffer 伴身